import jieba


# 初始化文本
content = '传智教育是一家上市公司,旗下有黑马程序员品牌.,我是在黑马这里学习人工智能'


# todo :全模式,将文本中所有可以成词的词语都分开,会有歧义问题
# cut_all:True ,全模式
result2 = jieba.lcut(sentence = content,cut_all = True)
print(result2)

# todo:搜索引擎模式,在精确模式结果基础上再次对长词进行分词
result3 = jieba.lcut_for_search(sentence = content)
result4 = jieba.cut_for_search(sentence = content)
print(result3)
print(list(result4))


# todo: 中文繁体分词
content1 = "烦恼即是菩提，我暂且不提"
result4 = jieba.lcut(sentence = content)
print('result4 ---->',result4)


# todo : 自定义词典分词
"""
格式:word(词)freq(词频) word_type(词性,可选)
黑马程序员 10 n
传智教育 3 n
...
"""

# 加载自定义字典,将分词后还有歧义的词进一步划分
jieba.load_userdict(f = 'data/userdict.txt')
# 将自定义词加入词典,
jieba.add_word("我是")
result5 = jieba.lcut(sentence = content)
print(result5)


